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近年 来 ， 大 数据 技术 与 系统 在 性 能 和 效率 方面 已 经 取得 了 显著 的 提升 ， 大 数据 应 用 到 各 个 行业 ， 赋 能 
EE 化 发 展 ， 成 为 信息 社会 进入 智能 化 阶段 的 关键 要 素 。 然 而 ， 大 数据 技术 发 展 也 面临 着 更 深层 次 的 挑 
儿 据 泛 滥 与 高 价值 数据 缺失 并 存 、 大 数据 分 析 研 判 复杂 不 确定 、 数 据 流通 共享 与 数据 可 信安 全 使 用 难 

等 。 这 些 挑 战 将 推动 大 数据 分 析 处 理 技术 的 创新 变革， 促进 新 技术 体系 的 建立 与 发 展 。 文 章 面向 大 数 


据 分 析 处 理 面临 的 新 架构 、 新 模式 、 新 范式 和 安全 可 信 需 求 ， 提 出 构建 新 一 代 大 数据 分 析 处 理 系统 栈 ， 探 索 
大 数据 价值 利用 新 范式 ， 并 展望 新 技术 体系 下 的 过 引 性 需求 与 重大 应 用 。 
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言 息 社会 进入 大 数据 时 代 后 ， 人 们 的 日 常 工作 和 ”出 更 加 科学 理性 的 决策 。 这 个 过 程 所 依赖 的 就 是 大 
行为 、 各 种 在 线 系统 〈 如 信息 系统 、 工 业 生产 线 ) 的 数据 分 析 处 理 技术 。 因 此 ， 大 数据 分 析 处 理 技 术 则 在 
工作 状态 、 各 类 传 感 融 的 信号 、 导 航 定位 系统 (全球 利用 数据 科学 的 方法 和 广泛 记录 下 来 的 数据 ， 以 实现 
定位 系统 GPS 、 北 斗 卫星 导航 系统 等 ) 产生 的 记录 等 。 从 数据 到 信息 、 信 息 到 知识 、 知 识 到 决策 的 价值 转 


作为 “ 


”被 常规 地 记录 成 为 大 规模 数据 。 不 同 KA 


于 以 往 为 验证 科学 理论 和 猜想 而 记录 和 收集 的 科学 大 当前 ， 数 字 经 济 成 为 社会 经 济 的 一 个 重要 内 涵 ， 
数据 ,记录 这 些 大 规模 数据 起 初 并 没有 明确 的 科学 目 。 数据 成 为 关键 生产 要 素 ， 大 数据 人 处理 技术 越 来 越 深 
bs. 但是， 它们 却 制造 了 男 外 的 机 会 。 人 们 可 以 通过 ” 刻 地 影响 着 世界 的 运行 状态 。 随 着 越 来 越 多 的 数据 


这 些 数据 发 现 和 总 结 出 规律 ， 并 依据 这 些 规律 提升 系 ”被 记录 、 收 集 和 存储 ， 如 何 深 刻 洞察 数据 分 布 规律 、 


i 


统 的 效率 ， 也 可 预测 、 判 断 未 来 的 趋势 ， 甚 至 辅助 做 ”高效 挖掘 数据 价值 ， 成 为 智能 化 时 代 需 要 解决 的 关键 
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问题 。 据 美国 国际 数据 公司 (IDC ) 的 报告 ，2020 年 
全 球 数据 量 为 44 ZB 左右 ，2025 年 全 球 数 据 量 将 达 
到 175ZB。 而 这 些 数据 只 有 2% 得 到 了 留存 ， 且 留存 
的 仅 50% 被 使 用 过 "。 由 此 可 见 ， 线 性 提升 的 数据 处 
理 能 力 并 无 法 匹配 指数 级 增长 的 数据 规模 ， 使 得 两 者 
之 间 的 “剪刀 差 ” 越 来 越 大 。 与 此 同时 ， 在 庞大 的 数 
据 空间 中 ， 对 特定 任务 真正 有 价值 的 核心 数据 却 往往 
是 极度 稀 玻 或 不 完整 的 。 以 上 现象 即 数据 泛 邀 与 高 价 
值 数据 缺失 并 存 的 表现 。 

以 互联 网 平台 企业 服务 为 代表 的 智能 化 应 用 大 都 
采用 “大 数据 十 大 模型 十 大 算 力 ”支撑 的 大 数据 分 析 
处 理 技术 ， 主 要 通过 系统 的 优化 来 增加 数据 处 理 规 模 
并 提升 计算 性 能 ， 从 而 有 效 解决 了 一 些 相对 低 阶 复杂 
度 的 预测 判定 问题 ， 如 图 像 分 类 、 语 音 识别 、 结 构 预 
测 ， 以 及 规则 明确 的 人 机 对 弈 游戏 等 。 而 在 开放 复杂 
的 系统 环境 下 ， 数 据 动 态 生 成 演化 ， 影 响 系 统 运行 状 
态 的 不 确定 因素 和 变量 巨大 ， 从 而 导致 一 些 高 阶 复杂 
的 问题 难以 直接 模型 化 ， 或 近似 求解 的 结果 不 可 信 ， 
如 金融 风险 预测 、 个 性 智能 诊疗 、 开 放 环 境 下 的 自动 
驾驶 等 。 在 这 些 高 阶 复杂 的 真实 系统 中 ， 数 据 采集 分 
布 往 往 是 不 稳定 和 不 完备 的 ， 这 对 要 求 精准 判别 的 大 
数据 分 析 处 理 模 式 提出 了 新 的 挑战 。 

同时 ， 解 决 数据 与 算法 的 安全 可 信和 问题 也 已 迫 在 
眉 睫 。 数 据 流通 共享 的 过 程 中 面临 着 数据 滥用 、 隐 私 
泄露 的 情况 。 数 据 本 身 可 能 也 会 引入 真实 世界 存在 的 
偏差 ， 或 者 在 对 抗 攻击 下 数据 被 污染 ， 使 得 大 数据 分 
析 模 型 做 出 有 偏 的 、 错 误 的 决策 外 。 在 大 数据 分 析 处 
理 技 术 逐 渐 应 用 于 关键 领域 的 当下 ， 如 何 让 大 数据 技 
术 以 一 种 安全 可 信 的 方式 服务 于 各 个 领域 ， 是 未 来 大 
数据 发 展 必须 面 对 的 又 一 个 难题 。 
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本 文 首先 回顾 了 近 10 年 来 大 数据 技术 的 发 展现 
状 ， 并 针对 数据 泛滥 与 数据 缺失 并 存 、 大 数据 分 析 研 
判 的 复杂 不 确定 性 和 数据 安全 缺失 等 挑战 ， 提 出 大 数 
据 分 析 的 新 范式 和 安全 可 信 的 大 数据 处 理 新 架构 ， 探 
索 大 数据 支撑 智能 应 用 的 新 模式 。 在 此 基础 上 ， 提 出 
构建 新 一 代 大 数据 分 析 处 理 软件 栈 ， 并 展望 新 技术 体 
系 下 的 牵引 性 需求 与 重大 应 用 。 


1 大 数据 分 析 处 理 现 状 


近 10 年 来 ， 在 产 学 研 各 界 及 政府 主导 的 大 力 推动 
下 ， 大 数据 技术 架构 、 生 态 环境 及 各 行 各 业 的 大 数据 
应 用 发 展 迅速 。 
1.1 大 数据 技术 架构 

海量 数据 促进 了 大 数据 技术 架构 的 发 展 。 四 大 
数据 管理 技术 方面 。 传 统 关系 数据 库 (SQL) 主要 处 
理 较 少数 据 和 较 小 并 发 访问 规模 ， 而 且 存 在 大 量 读 写 
硬盘 和 日 志 记录 操作 ， 难 以 横向 扩展 ， 无 法 满足 互联 
网 应 用 的 数据 管理 需求 。 为 了 实现 更 多 的 数据 管理 、 
更 大 规模 的 并 发 访问 及 更 多 样 的 数据 模式 ， 面 向 特定 
需求 的 各 类 非 关 系 型 数据 库 (NoSQL) 和 从 底层 重 构 
的 分 布 式 关 系数 据 库 (NewSQL ) 正在 快速 发 展 中 。 
其 中 ，NewSQL 保持 了 传统 数据 库 支 持 事 务 处 理 正确 
执行 四 要 素 ( ACID) OM SQL 标准 查询 等 特性 ， 并 有 具 
备 与 NoSQL 同样 优秀 的 可 扩展 性 。(B 大 数据 处 理 技 
术 方 面 。 根 据 处 理 需 求 的 不 同 ， 存 在 多 种 不 同 的 并 行 
计算 模型 ， 包 括 以 Hadoop, Spark 为 代表 的 批 处 理 ， 
以 Spark Streaming 、Flink 、STORM 为 代表 的 高 实时 
性 的 流 处 理 ， 以 Apache Beam, Lambda 为 代表 的 流 批 
一 体 混合 处 理 申 ， 以 及 以 GraphX, Apache Giraph 为 代 
表 的 图 处 理 ?。 同 时 ， 图 数据 和 实时 数据 处 理 的 爆发 


(D Reinsel D, Gantz J, Rydning J. Data Age 2025: The Evolution of Data to Life-Critical, IDC White Paper. USA: IDC, 2017. 

Q 指数 据 库 管理 系统 (DBMS) 在 写 入 或 更 新 资料 的 过 程 中 ， 为 保证 事务 (transaction). 是 正确 可 靠 的 ， 所 必须 具备 的 4 个 特性 : 
原子 性 (atomicity， 或 称 不 可 分 割 性 ) 、 一 致 性 (consistency) 、 隔 离 性 (isolation， 又 称 独立 性 ) 、 持 和 久 性 (durability) 。 

(3) Gonzalez J E, Xin R S, Dave A, et al. Graphx: Graph processing in a distributed dataflow framework. (2014-10-06)[2021-12-31]. https:// 


dl.acm.org/doi/abs/10.5555/2685048.2685096. 
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性 需求 也 推动 了 图 流 处 理 模 式 的 融合 人 中。 除 此 之 外 ， 
计算 硬件 逐渐 发 展 为 多 种 计算 单元 (如 CPU、GPU、 
NPU 等 ) 组 成 的 异 构 计 算 系 统 ， 新 型 硬件 和 软件 的 
多 层次 融合 进一步 提升 了 大 数据 处 理 效率 。(3) 大 数 
据 分 析 技 术 方 面 。 分 析 需 求 逐渐 从 小 规模 、 单 源 、 单 
一 模 态 数据 的 统计 挖掘 分 析 转 变 为 海量 、 多 源 、 多 模 
态 数据 的 复杂 异 质 关联 。 深 度 学 习 技 术 的 快速 发 展 ， 
推动 了 大 数据 分 析 模 型 能 力 的 提升 。 神 经 网 络 模型 
在 2012 年 的 计算 机 视觉 的 目标 识别 项 目 ImageNet 比 
赛 夺 冠 后 重 句 人 们 的 视野 ， 随 后 诞生 了 一 系列 突破 性 
的 工作 ， 包 括 知识 图 谱 提 供 知 识 服 务 、 生 成 对 抗 网 
络 合成 真实 数据 、AlphaGo 围棋 战胜 人 类 、GPT-3 预 
训练 语言 模型 等 。 此 外 ， 日益 成 熟 的 深度 学 习 框 架 
(如 TensorFlow、PyTorch 、 飞 桨 等 ) 也 降低 了 使 用 深 
度 学 习 分 析 大 数据 的 门槛 。 
1.2 大 数据 应 用 

近年 来 大 数据 分 析 处 理 技术 飞速 发 展 ， 催 生 了 众 
多 大 数据 应 用 ， 赋 能 了 大 量 行业 的 智能 化 发 展 ， 一 些 
标志 性 的 应 用 从 模式 和 能 力 上 颠 履 了 传统 的 信息 技 
术 能 力 。G@D 科学 发 现 方面 。DeepMind 公司 的 Alpha- 
fold 可 基于 和 蛋白质 的 基因 序列 数据 预测 蛋白 质 的 三 维 
结构 ， 进 而 分 析 和 蛋白 质 的 属性 ， 帮 助 生物 学 取得 了 重 
KER”, © 数字 经 济 方面 。 电 商 平台 的 兴起 ， 连 接 
遍布 全 球 各 个 角落 的 消费 者 和 供 货 方 ， 通 过 交易 大 数 
据 的 精准 分 析 ， 提 高 了 交易 效率 ,推动 了 在 线 支 付 与 
数字 货币 的 使 用 ， 业 履 了 社会 征 信 的 模式 ; 基于 大 数 
据 进 行 的 金融 风险 研判 、 小 微 金融 和 普 惠 式 金 融 等 也 
促进 了 数字 经 济 的 繁荣 。(® 社会 安全 方面 。 我 国 使 用 
大 数据 方法 辅助 公共 卫生 、 金 融 等 领域 的 社会 治理 与 
决策 ; 美国 尝试 研究 大 数据 技术 在 解决 社会 不 平等 、 
城市 政策 制定 方面 的 作用 。@ 生命 健康 方面 。 英 国 基 
于 海量 学 术 论文 和 临床 试验 结果 研发 了 治愈 运动 神经 
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衰退 等 多 种 药物 "”， 以 及 近 两 年 各 国 大 量 使 用 的 数字 
接触 追踪 技术 ， 辅 助 预测 了 疫情 传播 速度 和 趋势 ”， 
分 别 被 列 和 人 《 麻 省 理工 科技 评论 》2020 年 和 2021 年 的 
“全 球 十 大 突破 性 技术 ”。 国 内 外 大 数据 技术 的 应 用 
改变 了 诸多 传统 行业 中 耗 时 耗 力 的 工作 方式 ， 取 得 了 
智能 高 效 的 丰硕 成 果 。 
1.3 大 数据 生态 建设 

大 数据 分 析 处 理 的 繁荣 离 不 开 大 规模 数据 资源 共 
享 、 技 术 架 构 开 放 和 算法 模型 开源 所 形成 的 技术 生态 
AUR. CD 开源 数据 方面 。 开 源 数据 支撑 各 类 大 数据 
技术 的 构建 。 例 如 ，2009 年 美国 斯 坦 福 大 学 发 布 的 
视觉 数据 集 ImageNet"! , 2015 年 美国 麻 省 理工 学 院 发 
布 的 大 规模 医疗 信息 数据 库 MIMIC-M™, 2020 年 斯 
坦 福 大 学 发 布 的 图 数据 集 Open Graph Benchmark”, 
都 极 大 地 影响 了 大 数据 技术 的 发 展 。( 开源 软件 方 
面 。Apache 软件 基金 会 基于 Hadoop 生态 先后 发 布 了 
一 整套 完善 的 分 布 式 存储 与 处 理 框架 Map-Reduce、 
线性 代数 计算 框架 Mahout 、 机 器 学 习 库 MLlib 等 ， 
旨 在 让 开发 者 快速 实现 和 应 用 大 数据 分 析 处 理 算法 。 
2014 年 以 来 ， 深 度 神经 网 络 的 开源 框架 ， 如 Caffe, 
Tensorflow、PyTorch 等 ， 更 是 为 从 大 数据 中 学 习 面 向 
不 同 任务 的 智能 模型 提供 了 重要 支持。(3) 开源 模型 
方面 。 基 于 大 规模 数据 学 习 的 BERT、GPT3 等 预 训 
练 语言 模型 "'"， 大 幅 降低 了 相关 技术 的 应 用 成 本 ， 拓 
宽 了 下 游 应 用 场景 。 此 外 ， 如 何 保障 数据 安全 和 个 人 
隐私 ,最 近 也 得 到 了 各 国政 府 和 组 织 的 高 度 重视 。 因 
此 ,兼顾 技术 发 展 和 数据 安全 ， 平 衡 效 率 和 风险 ， 建 
立 良好 的 大 数据 生态 环境 ， 仍 需要 进一步 探索 。 


2 新 一 代 大 数据 分 析 处 理 需 3 


当前 针对 大 规模 异 质 化 数据 集合 ， 主 流 的 大 数据 
分 析 人 处 理 方法 是 在 通用 模型 框架 下 不 断 尝试 超大 规模 


(@ https://www.technologyreview.com/10-breakthrough-technologies/2020. 
(5) https://www.technologyreview.com/2021/02/24/1014369/10-breakthrough-technologies-2021. 
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的 模型 参数 ， 实 现 “ 端 到 端 ” 的 分 析 推 新。 在 这 种 模 
式 下 ， 大 数据 分 析 处 理 能 力 很 大 程度 依赖 于 算 力 平台 
和 数据 资源 的 支持 。 在 实际 应 用 中 ， 这 些 大 数据 分 析 
处 理 技术 面临 着 真实 场景 和 关键 领域 中 数据 泛滥 与 
缺失 并 存 、 大 数据 分 析 研 判 的 复杂 不 确定 性 、 数 据 安 
全 监管 缺失 等 挑战 ， 最 终 使 得 分 析 处 理 存在 过 程 可 解 
释 性 差 、 模 型 泛 化 能 力 弱 、 因 果 规 律 不 清晰 、 研 判 结 
果 不 可 信 、 数 据 价 值 利 用 率 低 等 问题 。 为 解决 这 些 挑 
战 性 问题 ， 我 们 需要 重新 思考 大 数据 处 理 架 构 与 分 析 
模式 ， 新 一 代 的 大 数据 分 析 处 理 技术 体系 应 该 在 各 种 
实时 场景 下 实现 高 价值 知识 生成 、 持 续 在 线 的 瞬时 决 
策 、 安 全 可 信 的 推理 研判 ， 以 及 适用 于 未 来 各 种 有 人 - 
无 人 结合 的 在 线 系统 行动 优化 。 本 文 认为 ， 新 一 代 大 
数据 分 析 处 理 至 少 需要 满足 如 下 4 个 方面 的 需求 。 

(1) 人 在 回路 的 计算 范式 。 为 解决 现 有 大 数据 
分 析 处 理 方法 难以 攻克 的 高 阶 复杂 问题 ， 需 要 在 其 中 
引入 人 的 智能 与 决策 ， 强 调 人 、 机 器 及 数据 之 间 的 有 
机 交互 。 不 同 于 原来 的 人 机 交互 ， 即 机 顺 按 照 人 的 指 
令 ， 或 人 听 机 器 的 输出 结果 ， 而 是 更 关注 人 脑 和 机 融 
思维 的 深度 融合 计算 "”。 

(2) 广 谱 关 联 的 分 析 模式 。 为 解决 大 数据 价值 密 
度 低 、 极 稀疏 、 不 均匀 、 关 键 信息 缺失 的 问题 ,一 方 
面 ， 融 合 各 个 对 象 在 “人 机 物 ” 融 合 的 多 域 多 维 数据 
空间 中 留 下 的 多 元 异 构 信 号 ， 利 用 关联 增强 信号 ; 另 
一 方面 ， 融 合 数据 与 知识 ， 构 建 终 生 学 习 、 可 迁移 扩 
展 的 知识 体系 ， 形 成 数据 驱动 与 知识 制导 深度 融合 的 
新 分 析 模 式 。 

(3) 在 线 增 强 的 处 理 架 构 。 随 着 万 物 互 联 和 智能 
泛 在 发 展 ， 大 数据 云 边 端 协同 计算 技术 和 解 耦 化 的 云 
边 端 处 理 框架 成 为 热点 。 基 于 云 计 算 环 境 下 的 流 批 混 
合 处 理 将 进一步 向 边缘 端 发 展 ， 训 练 学 习 与 推理 预测 
将 在 前 端 设备 上 融合 一 体 。 利 用 云 边 端 资源 弹性 调度 


(6) 在 人 工 智 能 深度 学 习 中 指 训练 和 推理 一 体 化 。 
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能 力 ， 实 现 感知 与 认 知 能 力 前 置 ， 支 持 在 线 环 境 下 基 
于 动态 活性 数据 的 瞬时 决策 ， 从 而 形成 去 中 心 化 、 异 
构 分 布 、 持 续 在 线 的 新 型 计算 框架 。 

(4) 安全 可 信 的 大 数据 分 析 。 安 全 可 信和 是 满足 
关键 领域 和 场景 下 认 知 和 决策 安全 的 基本 需求 。 一 方 
面 ， 着 重 关 注 大 数据 分 析 处 理 结果 的 可 解释 、 可 信和 
公平 性 另 一 方面 ， 实 现 数据 在 收集 、 存 储 、 使 
用 、 流 通 中 的 安全 保护 和 异常 检测 ， 保 证 在 强 对 抗 攻 
击 下 分 析 处 理 模 型 与 方法 的 鲁 棒 性 和 免疫 性 。 


3 新 一 代 大 数据 分 析 处 理 软件 栈 


在 高 效 的 大 数据 价值 提取 、 安 全 可 信 的 分 析 处 理 
目标 下 ， 针 对 以 上 4 个 大 数据 分 析 处 理 的 重要 需求 ， 
未 来 急需 建立 自立 自强 的 大 数据 分 析 处 理 技术 新 体 
系 ， 发 展 新 一 代 大 数据 分 析 处 理 软件 栈 (图 1) ， 从 
底层 数据 操作 系统 、 通 用 分 析 处 理 中 间 件 、 业 务 驱动 
的 计算 环境 及 框架 3 个 方面 进行 研究 。 

3.1 全 栈 式 的 大 数据 系统 软件 

发 展 并 涵盖 数据 接 入 、 流 式 处 理 、 图 计算 、 训 推 
一 体 " 等 多 个 方面 的 大 数据 系统 软件 。 

(1) 数据 接 入 方面 。 针 对 当前 数据 采集 流程 中 
数据 来 源 繁多 、 数 据 类 型 混合 及 异 质 数据 存储 效率 
低下 的 难题 ,研究 “人 机 物 ” 融 合 的 数据 汇聚 与 融合 
方法 ,支持 对 多 种 数据 源 的 结构 化 、 半 结构 化 数据 的 
采集 与 融合 ， 探 索 高 效 的 存储 算法 ， 提 高 底层 存储 空 
间 利 用 效率 ， 支 持 对 数据 的 高 效 压 缩 与 还 原 ， 实 现 对 
“人 机 物 ” 三 元 数据 空间 中 的 多 源 异 构 数据 进行 高 效 
感知 、 采 集 、 融 合 与 存储 ， 为 系统 提供 高 质量 的 数据 
流 接 入 。 

(2) 流 式 处 理 方面 。 现 有 大 数据 处 理 框架 中 存在 
计算 模式 单一 的 问题 ， 即 单独 追求 大 批量 或 强 时 效 。 
针对 这 一 问题 ， 将 研究 多 计算 模式 融合 的 流 式 处 理 杠 


© 4 4315 mnes 


202303.10107v1 


chinaXiv 


专题 : 构建 自立 自强 的 信息 技术 体系 


ChinaXiv 合 作 期 刊 


1 
任务 驱动 计算 环境 | 可 组 合 的 模块 化 编程 框架 可 伸缩 的 大 数据 分 析 处 理 框架 任务 感知 知识 重 构 模型 裁剪 
| l 
预 处 理 > 特征 分 析 > 知识 推断 > 决策 研判 > ”可 视 化 | 
分 析 处 理 中 间 件 ， 数据 质量 处 理 与 数据 | ,| 大 数据 高 阶 表征 与 大 数据 驱动 的 语义 分 , AMAAN RAT | 
| 标注、 简约 计 算 建 模 析 与 知识 推理 增 量 决策 研判 可 视 化 分 析 。 
l | 
| l 
数据 接 入 流 处 理 m 训练 、 推 断 


[ 

I 
大 数据 系统 软件 | 3 z 

| “人 机 物 ” 融合 的 数据 汇聚 

1 
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低 延 时 大 流量 实时 数据 处 理 图 结构 与 网 络 大 数据 计算 引擎 


云 边 端 训 推 一 体 计算 框架 


图 1 新 一 代 大 数据 分 析 处 理 软件 栈 


Figure 1 New big data analyzing and processing system stack 


架 ， 支 持 批 处 理 、 流 处 理 、 图 处 理 等 多 种 计算 模式 ， 
实现 低 延 时 、 大 流量 、 强 时 效 的 数据 处 理 ， 以 应 对 不 
断 接 入 的 高 速 数据 流 。 

(3) 关联 数据 的 计算 方面 。 
应 图 结构 数据 的 强 数据 依赖 性 、 高 随机 访 存 与 非 均 匀 
窜 律 分 布 特性 。 和 针对 这 一 问题 ， 研 究 针 对 图 结构 和 网 
络 大 数据 的 计算 引擎 ， 提 出 大 规模 图 数据 的 新 型 分 布 
式 计算 框架 和 并 行 计算 机 制 ， 定 制 大 规模 图 数据 的 查 
询 语言 标准 与 规范 ， 实 现 图 查询 与 图 分 析 语 言 的 标准 
化 。 

(4) 训练 推理 方面 。 现 有 云端 大 数据 处 理 架 构 
难以 满足 大 规模 服务 的 实时 性 与 计算 资源 需求 。 针 对 
这 一 问题 ,研究 云 边 端 协同 的 训 推 一 体 框 架 ， 将 大 数 
据 分 析 处 理 中 的 训练 与 推断 流程 从 云端 推 呵 边缘 ， 文 
持 训 推 一 体 ""， 在 数据 生成 的 边 端 提供 服务 和 执行 计 
F, 实现 “ 认 知 前 置 ”和 终生 学 习 ， 以 提供 分 布 式 、 
低 延 迟 、 持 续 在 线 的 智能 服务 和 瞬时 决策 。 

3.2 重 构 大 数据 分 析 处 理 流程 

从 预 处 理 、 数 据 表 征 、 语 义 分 析 与 知识 推理 、 决 
策 研 判 到 可 视 化 的 全 技术 链 上 升级 创新 。 

(1) 数据 质量 处 理 与 简约 计算 方面 。 针 对 数据 质 
量 处 理 ， 可 发 展 利用 群 智 技术 挖掘 高 质量 数据 ， 以 低 


现 有 计算 框架 难以 适 
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成 本 、 高 效率 的 方式 实现 大 规模 数据 的 采集 处 理 ; 针 
对 简约 计算 方面 ， 可 研究 基于 数据 复杂 度 的 近似 计算 
理论 和 优化 算法 框架 ， 以 此 指导 人 们 寻找 面向 计算 的 
数据 内 核 或 者 数据 边界 的 基本 方法 ， 构 建 具有 高 效 计 
算 能 力 的 模型 。 

(2) 大 数据 高 阶 表征 与 建 模 方面 。 探 索 基 于 无 
监督 预 训练 的 数据 表征 学 习 的 理论 与 方法 ， 从 大 规 
模 未 标注 的 语 料 数据 中 抽取 高 层次 语义 抽象 的 数据 表 
征 ， 提 高 语义 表征 的 泛 化 能 力 ; 研究 基于 小 样本 数据 
的 预 训练 一 微调 模型 ， 在 大 规模 无 监督 语 料 训练 得 到 
的 数据 表征 基础 上 ， 构 建 辅助 上 层 任 务 的 通用 高 质量 
数据 表征 ;探索 基于 领域 知识 的 预 训练 数据 建 模 理 论 
与 方法 ， 将 人 类 知识 融合 到 预 训练 模型 中 ， 提 升 预 训 
练 模型 的 学 习 效 率 等 。 同 时 ， 为 应 对 数据 多 源 异 构造 
成 的 知识 隔 头 ， 有 必要 进一步 发 展 跨 模 态 数据 表征 和 
建 模 、 多 源 知 识 融 合 技术 ， 以 实现 全 域 知 识 联 合 和 利 
用 。 


(3) 大 数据 驱动 的 语义 分 析 与 知识 推理 方面 。 
研究 面向 细 粒 度 语义 单元 的 大 数据 语义 融合 方法 ， 显 
著 提 高 多 源 异 构 数 据 关 联 融 合 的 效果 ; 研究 样本 稀 琉 
环境 下 的 领域 知识 获取 、 大 规模 常识 获取 与 理解 、 知 
识 获取 中 的 人 机 协作 机 制 与 方法 ， 提 升 知识 获取 的 能 
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大 数据 分 析 处 理 技术 新 体系 的 思考 | 


力 ， 大 幅 提 高 知识 库 的 规模 ; 研究 基于 知识 图 谱 的 可 
解释 分 析 方 法 、 数 据 驱 动 与 知识 引导 深度 融合 的 新 型 
语义 分 析 方 法 ,显著 提 升 知识 驱动 下 各 类 模型 的 效果 
和 可 解释 性 。 

(4) 人 机 结合 的 增 量 决策 研判 方面 。 未 来 大 量 
物理 设备 、 无 人 设备 、 人 脑 ， 通 过 泛 在 网 络 实现 “上 
线 ” 和 “互联 ”， 为 人 的 参与 提供 了 基本 的 物质 条 
件 。 人 作为 具备 智能 的 自然 系统 ， 如 何 参 与 到 机 器 智 
能 的 系统 回路 中 是 一 个 关键 问题 。 未 来 应 重点 解决 思 
维 融 合 或 决策 融合 的 问题 ， 探 索 人 脑 数 据 及 机 絮 智 能 
系统 信息 可 相互 转换 的 新 型 数据 科学 理论 ， 并 设计 高 
效能 的 计算 方法 。 当 下 的 算法 模型 不 会 随 着 数据 的 生 
成 而 持续 学 习 ， 即 无 法 应 对 连续 和 意外 变化 的 环境 ， 
特别 是 在 任务 关键 型 应 用 程序 中 更 需 间 愤 。 因 此 ， 研 
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数据 的 关联 分 析 和 全 息 展示 ， 实 现 对 数据 、 算 法 、 模 
型 的 高 层次 抽象 ， 形 成 支撑 面向 任务 场景 的 智能 组 合 
分 析 算 子 库 ， 实 现 智 能 算法 的 内 生性 支持 ， 赋 能 人 机 
混合 的 交互 式 协同 分 析 。 

(Q2) 可 伸缩 的 大 数据 分 析 处 理 框架 方面 。 未 来 可 
发 展 支持 弹性 计算 、 可 伸缩 模型 、 可 弹性 配置 的 处 理 
框架 ， 即 根据 实际 应 用 的 任务 场景 与 计算 资源 的 需求 
等 方面 划分 各 种 任务 ， 满 足 特 定 需求 、 精 度 需求 、 延 
时 需求 、 实 时 性 需求 等 ， 同时， 构建 可 伸缩 的 大 数据 
分 析 处 理 框 架 ， 能 够 灵活 配置 计算 资源 和 数据 规模 ， 
以 实现 弹性 适 配 。 

(3) 任务 感知 的 知识 重 构 和 模型 裁剪 方面 。 未 
来 可 发 展 面向 任务 的 高 级 知识 计算 语言 和 模型 裁剪 技 
术 ， 基 于 通用 知识 图 谱 实 现 面 向 特定 领域 任务 的 知识 


究 持续 学 习 、 在 线 学 习 等 技术 ， 实 现 算法 模型 持续 在 
线 瞬时 决策 十 分 必要 。 

(5) 探索 式 可 视 化 分 析 方面 。 研 究 新 型 的 跨 主 
体 ( 人 、 机 、 物 ) 可 视 交 互 理 论 ， 构 建 多 人 协同 的 
混合 主动 式 可 视 分 析 范 式 ， 支 持 多 人 同时 对 相同 或 不 
同 的 可 视 化 视图 进行 多 角度 的 探索 ， 设 计 相 应 的 可 视 
表达 与 交互 形式 ; 人 研究 围绕 大 数据 可 视 化 的 认 知 计算 
与 聚合 理解 模型 、 方 法 与 核心 技术 ， 构 建 人 机 协同 智 
能 及 其 驱动 的 大 数据 可 视 内 容 与 属性 的 自动 理解 关键 
技术 ; 提升 围绕 大 数据 可 视 化 的 计算 机 自动 理解 、 表 
示 与 生成 能 力 等 ， 构 建 大 数据 可 视 计 算 与 交互 技术 体 
系 。 

3.3 建立 任务 驱动 的 大 数据 计算 环境 

从 可 组 合 的 模块 化 编程 框架 、 可 伸缩 的 大 数据 分 
析 处 理 框 架 、 任 务 感知 的 知识 重 构 模型 裁剪 这 3 个 方 
面 发 力 ， 为 各 行 各 业 提 供 场景 感知 、 共 识 感知 的 更 优 
质 和 更 灵活 的 分 析 处 理 环境 。 

(1) 可 组 合 的 模块 化 编程 框架 方面 。 未 来 可 发 展 
面向 多 业务 可 扩展 、 可 重 构 的 敏捷 开发 框架 ， 构 建 多 
形态 分 析 模 式 库 和 智能 业务 编程 框架 ， 突 破 多 源 异 构 


重 构 ， 建 立 起 常识 与 领域 知识 融合 的 知识 计算 引擎 ， 
显著 提升 知识 管理 和 利用 的 能 力 与 效率 。 


4 推动 新 一 代 大 数据 分 析 处 理 技术 发 展 建议 


(1) 建立 理论 基础 。 大 数据 分 析 处 理 技术 新 体 
系 的 建立 ， 离 不 开 基 础 理论 的 突破 。( 建立 数据 复杂 
性 和 大 数据 可 计算 性 理论 。 回 归 数 据 本 原 ， 探 索 数据 
在 分 布 规律 、 结 构 规 则 和 时 空 尺度 方面 的 规律 性 ， 以 
此 设计 高 效能 的 计算 方法 。@ 探索 异 质 广 谱 关联 的 
大 数据 分 析 理 论 。 将 各 类 目标 在 “人 机 物 ” 融 合 的 多 
维 数据 空间 留 下 的 微弱 信和 号 进行 关联 放大 ， 研 究 广 域 
开 环 、 非 统一 量 纲 环境 下 有 瞬时 决策 推断 方法 的 收敛 性 
理论 。@ 研究 大 数据 分 析 处 理 的 安全 可 信 理 论 。 一 
方面 ， 研 究 数 据 的 安全 共享 和 隐私 计算 理论 ， 保 障 数 
据 流通 共享 过 程 中 的 安全 性 ; 另 一 方面 ， 研 究 数据 的 
固有 偏差 性 和 数据 遭受 攻击 时 的 分 析 处 理 的 鲁 棒 性 极 
限 和 可 验证 理论 ， 建 立 可 防范 、 可 审计 、 可 追 责 的 机 
制 ， 保 证 强 对 抗 环 境 下 分 析 处 理 结 果 的 可 信 。 

(2) 加 大 应 用 军 引 。 新 大 数据 分 析 处 理 技术 体 
系 应 能 全 面 高 效 赋 能 行业 、 产 业 、 安 全 领域 。 同 时 ， 
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专题 : 构建 自立 自强 的 信息 技术 体系 


还 需要 利用 科学 发 现 、 生 命 健康 、 社 会 治理 等 牵引 性 
应 用 场景 来 推动 大 数据 分 析 处 理 新 体系 的 健康 、 良 性 
AH. CD 科学 发 现 方面 。 研 究 借助 大 数据 分 析 技 术 从 
大 量 实验 数据 中 发 现 科学 规律 ， 形 成 基于 大 数据 分 析 
的 新 型 科学 人 研究 方法 论 。@® 生命 健康 方面 。 研 究 大 数 
据 方法 用 于 辅助 复杂 化 合 物 分 子 的 发 现 ， 降 低 新 型 药 
物 的 研发 成 本 ， 加 快 提升 综合 医疗 水 平 ， 利 用 大 数据 
手段 应 对 重大 疫情 和 事件 的 高 效用 、 持 续 在 线 决策 。 
O 社会 治理 方面 。 充 分 发 挥 大 数据 技术 在 多 方 复杂 关 
联 问题 、 社 会 群体 认 知 建 模 分 析 中 的 优势 ， 构 建 人 工 
辅助 智能 决策 系统 ， 实 现 政府 决策 科学 化 、 社 会 治理 
精准 化 、 公 共 服 务 高 效 化 。 

(3) 数据 治理 生态 环境 。 大 数据 技术 的 应 用 与 
发 展 离 不 开 良 性 的 数据 治理 和 技术 生态 建设 。QD 个 人 
隐私 保护 。 需 要 相应 的 法 律 法 规 加 以 规范 。 例 如 ， 欧 
盟 2016 年 出 台 了 《通用 数据 保护 条 例 》， 帮 助 公民 控 
制 个 人 隐私 数据 ; 我 国 于 2021 年 发 布 了 《中 华人 民 
共和 国 数据 安全 法 》 和 《中 华人 民 共 和 国 个 人 信息 保 
护法 》， 对 大 数据 的 采集 与 使 用 给 予 合理 的 管控 和 监 
督 。@ 保证 数据 的 安全 流通 共享 。 需 要 建立 数据 流通 
交易 规则 规范 ， 优 化 数据 共享 、 交 易 、 流 通 相关 的 制 
度 ， 明 确 数据 权 属 分 配 ， 探 索 数据 交易 市 场 ， 构 建 有 
序 的 数据 流通 环境 。 


综 上 所 述 ， 未 来 应 发 展 突破 通用 模型 架构 、 分 析 
模式 和 计算 范式 ， 建 立新 架构 、 新 模式 、 新 范式 ， 以 
及 安全 可 信 的 大 数据 分 析 处 理 技 术 新 体系 ; 构建 新 一 
代 大 数据 分 析 处 理 软件 栈 ; 人 研究 和 发 展 相 应 的 理论 ， 
践 行 牵引 性 应 用 ; 建立 良性 的 数据 治理 生态 ， 推 动 大 
数据 分 析 处 理 技术 的 持续 进步 和 路 越 式 发 展 。 
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